我们引入了一个新颖的框架,用于连续的面部运动脱毛,该框架通过矩控制因子恢复单个运动毛面脸部图像中潜在的连续锋利力矩。尽管动作毛刺图像是在曝光时间内连续锋利矩的累积信号,但大多数现有的单个图像脱毛方法旨在使用多个网络和训练阶段恢复固定数量的帧。为了解决这个问题,我们提出了一个基于GAN(CFMD-GAN)的连续面部运动脱毛网络,该网络是一个新颖的框架,用于恢复带有单个网络和单个训练阶段的单个运动型面部图像中潜在的连续力矩。为了稳定网络培训,我们训练发电机以通过面部特定于面部知识的面部基于面部运动的重新排序过程(FMR)确定的顺序恢复连续矩。此外,我们提出了一个辅助回归器,该回归器通过估计连续锋利的力矩来帮助我们的发电机产生更准确的图像。此外,我们引入了一个控制自适应(CONTADA)块,该块执行空间变形的卷积和频道的注意,作为控制因子的函数。 300VW数据集上的大量实验表明,所提出的框架通过改变力矩控制因子来生成各种连续的输出帧。与最近使用相同300VW训练集训练的最近的单一单击图像脱蓝色网络相比,提出的方法显示了在感知指标(包括LPIPS,FID和Arcface身份距离)方面恢复中央锋利框架的出色性能。该方法的表现优于现有的单一视频脱蓝和用于定性和定量比较的方法。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
合并个人喜好对于高级机器翻译任务至关重要。尽管机器翻译最近进步,但正确反映个人风格仍然是一项艰巨的任务。在本文中,我们引入了一个个性化的自动后编辑框架来应对这一挑战,该挑战有效地产生了考虑不同个人行为的句子。为了构建此框架,我们首先收集后编辑数据,该数据表示来自Live Machine Translation系统的用户偏好。具体而言,现实世界的用户输入源句子进行翻译,并根据用户的首选样式编辑机器翻译的输出。然后,我们提出了一个模型,该模型结合了APE框架上的歧视器模块和特定于用户的参数。实验结果表明,该方法的表现优于四个不同指标(即BLEU,TER,YISI-1和人类评估)的其他基线模型。
translated by 谷歌翻译
在本文中,我们通过利用给定数据集中的规律性来有效地介绍了一种新颖的方法来系统地解决数据集凝结问题。我们没有直接在原始输入空间中凝结数据集,而是假设数据集的生成过程,其中一组可学习的代码在紧凑的潜在空间中定义,然后是一组微型解码器,它们将它们映射到原始输入空间。通过互换组合不同的代码和解码器,我们可以大大增加具有相同参数计数的合成示例的数量,因为潜在空间要较低,并且由于我们可以假设尽可能多的解码器来捕获数据集中表示的不同样式费用微不足道。这种知识分解允许以系统的方式有效地共享综合示例之间的信息,从而在压缩比和生成的示例的质量之间进行了更高的权衡。我们通过实验表明,我们的方法通过各种基准数据集(例如SVHN,CIFAR10,CIFAR100和Tinyimagenet)在各种基准数据集上实现了新的最新记录。
translated by 谷歌翻译
深度神经网络(DNN)的训练过程通常是用阶段进行管道的,用于在CPU上进行数据制备,然后对GPU等加速器进行梯度计算。在理想的管道中,端到端训练吞吐量最终受到加速器的吞吐量的限制,而不是数据准备。过去,DNN训练管道通过使用使用轻巧,有损的图像格式(如JPEG)编码的数据集实现了近乎最佳的吞吐量。但是,随着高分辨率,无损编码的数据集变得越来越流行,对于需要高精度的应用程序,由于CPU上的低通量图像解码,在数据准备阶段出现了性能问题。因此,我们提出了L3,这是一种用于高分辨率,高通量DNN训练的定制轻巧,无损的图像格式。 L3的解码过程在加速器上有效平行,从而最大程度地减少了在DNN培训期间进行数据制备的CPU干预。 L3比最流行的无损图像格式PNG获得了9.29倍的数据准备吞吐量,用于NVIDIA A100 GPU上的CityScapes数据集,该数据集可导致1.71倍更高的端到端训练吞吐量。与JPEG和WebP相比,两种流行的有损图像格式,L3分别以同等的度量性能为Imagenet提供高达1.77倍和2.87倍的端到端训练吞吐量。
translated by 谷歌翻译
通过深度学习(DL)优于不同任务的常规方法,已经努力利用DL在各个领域中使用。交通域中的研究人员和开发人员还为预测任务(例如交通速度估算和到达时间)设计和改进了DL模型。但是,由于DL模型的黑盒属性和流量数据的复杂性(即时空依赖性),在分析DL模型方面存在许多挑战。我们与域专家合作,我们设计了一个视觉分析系统Attnanalyzer,该系统使用户能够探索DL模型如何通过允许有效的时空依赖性分析来进行预测。该系统结合了动态时间扭曲(DTW)和Granger因果关系测试,用于计算时空依赖性分析,同时提供映射,表格,线图和像素视图,以帮助用户执行依赖性和模型行为分析。为了进行评估,我们提出了三个案例研究,表明Attnanalyzer如何有效地探索模型行为并改善两个不同的道路网络中的模型性能。我们还提供域专家反馈。
translated by 谷歌翻译
实际数据集中不可避免地有许多错误标记的数据。由于深度神经网络(DNNS)具有记忆标签的巨大能力,因此需要强大的训练方案来防止标签错误降低DNN的概括性能。当前的最新方法提出了一种共同训练方案,该方案使用与小损失相关的样本训练双网络。但是,实际上,培训两个网络可以同时负担计算资源。在这项研究中,我们提出了一种简单而有效的健壮培训计划,该计划仅通过培训一个网络来运行。在训练过程中,提出的方法通过从随机梯度下降优化形成的重量轨迹中抽样中间网络参数来生成时间自我启动。使用这些自我归档评估的损失总和用于识别错误标记的样品。同时,我们的方法通过将输入数据转换为各种形式,并考虑其协议以识别错误标记的样本来生成多视图预测。通过结合上述指标,我们介绍了提出的{\ it基于自动化的鲁棒训练}(SRT)方法,该方法可以用嘈杂的标签过滤样品,以减少其对训练的影响。广泛使用的公共数据集的实验表明,所提出的方法在某些类别中实现了最新的性能,而无需训练双网络。
translated by 谷歌翻译
据报道,传感器嵌入式手套系统需要仔细,耗时和精确的校准,以获得一致的可用数据。我们已经开发出低成本,基于Flex传感器的智能手套系统,可能是对数据手套的共同限制的弹性。该系统利用Arduino基础的微控制器以及每个手指上的单个柔性传感器。从Arduinos模拟到数字转换器的反馈可用于推断对象尺寸特性,每个单独的手指的反应相对于掌握物体的尺寸和形状不同。在这项工作中,我们在统计上区分了不同的半径的统计差异的静止物体,无论手套用户引入的变化如何。使用我们的传感器嵌入式手套系统,我们根据智能手套的每根手指的触觉传感器响应探索了物体分类的实用性。从五个手指平均柔性传感器读数中的每一个计算平均值的估计标准误差。与文献一致,我们发现物体形状,尺寸和柔性传感器读数之间存在系统的依赖性。当比较相同半径的球形和圆柱形物体时,从至少一个手指输出的传感器从至少一个手指输出。当传感各种尺寸的球体和气缸时,所有五个手指对每个形状具有明显不同的反应。我们认为,我们的发现可以用于机器学习模型,用于实时对象识别。
translated by 谷歌翻译
我们通过补充每个图像的弱点将内扫描(iOS)和牙科锥形电脑层析术(CBCT)图像集成到一个图像中的完全自动化方法。单独的牙科CBCT可能无法通过有限的图像分辨率和各种CBCT伪像(包括金属诱导的伪像)来描绘牙齿表面的精确细节。 iOS非常准确地扫描窄区域,但它在全拱扫描过程中产生累积缝合误差。该方法不仅要补偿具有iOS的CBCT衍生的牙齿表面的低质量,而且还要校正整个牙弓的IOS的累积拼接误差。此外,整合提供了一种图像中CBCT的IOS和齿根的牙龈结构。所提出的全自动方法包括四个部分; (i)iOS数据(TSIM-iOS)的单个牙齿分割和识别模块; (ii)CBCT数据(TSIM-CBCT)的个体齿分割和识别模块; (iii)IOS和CBCT之间的全球到局部牙齿登记; (iv)全拱ios的缝合纠错。实验结果表明,该方法分别达到了0.11mm和0.30mm的地标和表面距离误差。
translated by 谷歌翻译
Non-uniform blind deblurring for general dynamic scenes is a challenging computer vision problem as blurs arise not only from multiple object motions but also from camera shake, scene depth variation. To remove these complicated motion blurs, conventional energy optimization based methods rely on simple assumptions such that blur kernel is partially uniform or locally linear. Moreover, recent machine learning based methods also depend on synthetic blur datasets generated under these assumptions. This makes conventional deblurring methods fail to remove blurs where blur kernel is difficult to approximate or parameterize (e.g. object motion boundaries). In this work, we propose a multi-scale convolutional neural network that restores sharp images in an end-to-end manner where blur is caused by various sources. Together, we present multiscale loss function that mimics conventional coarse-to-fine approaches. Furthermore, we propose a new large-scale dataset that provides pairs of realistic blurry image and the corresponding ground truth sharp image that are obtained by a high-speed camera. With the proposed model trained on this dataset, we demonstrate empirically that our method achieves the state-of-the-art performance in dynamic scene deblurring not only qualitatively, but also quantitatively.
translated by 谷歌翻译